بازیابی بر اساس محتوای اسناد چاپی فارسی
thesis
- وزارت علوم، تحقیقات و فناوری - دانشگاه الزهراء - دانشکده فنی
- author زهرا بهمنی کوخدان
- adviser رضا عزمی
- Number of pages: First 15 pages
- publication year 1390
abstract
با افزایش کتابخانه های دیجیتال و برای برای دستیابی به هدف ادارات بدون کاغذ تعداد زیادی از کپی ها به دیجیتال تبدیل شده و در سیستم مدیریت اسناد ذخیره شده است. همچنین در حال حاضر میلیون ها سند دیجیتال دائماً بر روی اینترنت از یک نقطه به نقطه ی دیگر منتقل می شوند. اگر چه تکنولوژی پردازش تصویر اسناد می تواند برای تبدیل اتوماتیک تصاویر دیجیتال این اسناد به فرمت متن قابل خواندن به وسیله کامپیوتر با استفاده از بازشناسی کارکتر نوری استفاده شود ولی این روش برای حجم عظیمی از اسناد بهینه و کارا نیست. با توجه به این شرایط یافتن راه حل بازیابی اسناد پرینت شده به روشی که نیاز به برگرداندن این اسناد به نسخه ی متنی نداشته باشد ضروری به نظر می آید. روش های بازیابی و بازشناسی به دو دسته اصلی تقسیم می شوند. دسته اول بازیابی را بر اساس توصیف شکل کلی کلمات یا زیرکلمات انجام می دهند. دسته دوم کلمه را به حروف می شکنند و از هر تصویر حرف ویژگی استخراج می کنند. در روشهای مبتنی بر جداسازی علاوه بر مشکلاتی مانند وجود نقاط و علائم و تنوع قلمها، مشکل جداسازی حروف نیز وجود دارد. در این پژوهش ما از روشی برای استخراج ویژگی های کلمات استفاده کرده ایم که نیاز به تخمین نقاط جداسازی ندارد. برای این منظور از شناسایی اتصال دهنده های عناصر اصلی حروف استفاده شده است. با شناسایی این اتصال دهنده ها و حذف آنها عناصر اصلی که در این پژوهش با نام زیرحروف نامگذاری شده اند استخراج شده است. در این پژوهش از سه روش زیر برای تشخیص زیرحروف استفاده شده است. در روش اول زیرحروف با استفاده از درخت تصمیم و به کمک ویژگی های شکلی زیرحروف مانند ارتفاع، عرض، حفره ها، گودال ها، دره ها، فرورفتگی ها و موقعیت عنصر نسبت به خط زیمینه تشخیص داده شده اند. دقت تشخیص در این روش برای زیرحروف بین 80 نا 100 در صد بوده است. در روش دوم از ترکیبی از درخت تصمیم نخ کشی شده و شبکه عصبی rbf برای تشخیص زیرحروف استفاده شده است. در این روش علاوه بر ویژگی های شکلی کلمه، ویژگی نمایه ها در چهار جهت بکار برده شده است. نتایج روش دوم برای زیرحروف بین 90 تا 100 ارزیابی شده است. سومین روش مورد استفاده شبکه عصبی چند سطحی می باشد. در این روش تشخیص تنها به وسیله ویژگی نمایه ها و در سه تا چهار سطح و با استفاده از شبکه عصبی انجام شده است. تشخیص در این روش برای اغلب زیرحرف ها بالای 95 درصد بوده است. در نهایت با کد کردن زیرحروف، زیرکلمات و کلمات موجود در تصویر سند کد شده و برای بازیابی کلمات کلیدی مورد نظر کاربر استفاده شده است. دقت سیستم برای کلمات با طول متغییر به طور متوسط بالای 90 درصد ارزیابی شده است.
similar resources
طراحی و پیادهسازی یک سیستم بازیابی اسناد چاپی فارسی
هدف: معرفی، دستهبندی، و نقد پژوهشها دربارۀ سیستمهای بازشناسی و بازیابی اسناد چاپی فارسی و پیشنهاد یک سیستم بازیابی اسناد چاپی با رویکردی نو. روششناسی: شیوهای جدید با رویکرد جداسازی، طراحی و سپس پیادهسازی شده است. برای آموزش و آزمایش سیستم، پایگاه دادهای شامل تصویر 50 صفحه متن فارسی در 5 قلم مختلف فراهم آمد. از نیمی از این دادهها برای آموزش و نیمی...
full textبازیابی متون چاپی فارسی بر اساس پرس و جوی کلمات
در این پایان نامه روشی جدید برای بازیابی و جستجوی کلمات فارسی از میان متون تصویری فارسی ارائه شده است. همچنین روشی مبتنی بر اندازه و شکل نقاط موجود در مستند پس از آستانه گذاری، جهت تشخیص قلم و اندازه قلم مستندات تصویری فارسی ارائه شده است. روش ارائه شده برای تشخیص قلم از اولین روش هایی می باشد که می تواند با دقت بسیار بالایی اندازه قلم مستند فارسی را هم تشخیص دهد. برای ارزیابی روشهای ارائه شده ...
15 صفحه اولبازیابی بر اساس محتوای تصاویر درموسکوپی
در این پایان نامه، رویکردی سلسله مراتبی برای بازیابی بر اساس محتوای(cbir) تصاویر درموسکوپی با هدف کمک به تشخیص بیماری در درماتولوژی کلینیکی پیشنهاد می شود. در روش های معمول cbir، سنجش شباهت تنها با محاسبه فاصله بردارهای ویژگی تصاویر مجموعه داده صورت می گیرد. در نتیجه، فاصله معنایی چالش بزرگی در عملکرد بازیابی ایجاد می کند. از این رو، در این تحقیق زیرمجموعه های ویژگی مختلف و یک رویکرد سلسله مرات...
15 صفحه اولبازیابی مستندات تایپی فارسی بر اساس جستجوی کلمه کلیدی
بر خلاف پیشرفت در مخابرات الکترونیکی، بسیاری از اسناد هنوز در شکل کاغذ فرستاده و دریافت می شوند که به دلیل اهمیت حقوقی آن ها باید آرشیو شوند. مدیریت حجم عظیم این اسناد، شرکت های بزرگ را نیازمند به اپراتورها و نیروهای انسانی کرده است تا این اسناد را چک و دسته بندی نمایند یا ممکن است لازم شود مکاتبه ها بر اساس محتوا دسته بندی شوند. هدف ما در این پایان نامه بازیابی مستندات تایپی فارسی بر اساس جستج...
My Resources
document type: thesis
وزارت علوم، تحقیقات و فناوری - دانشگاه الزهراء - دانشکده فنی
Keywords
Hosted on Doprax cloud platform doprax.com
copyright © 2015-2023